Model Selection

Real-time voice interaction

# Real-time voice interaction

Voila Autonomous Preview

Voila is a large family of speech-language foundation models designed to enhance human-computer interaction, supporting real-time, low-latency voice interaction and multilingual processing.

Transformers Supports Multiple Languages

Voila Audio Alpha

Voila is a large family of speech-language foundation models designed to enhance human-computer interaction, supporting real-time, low-latency voice interaction and multilingual processing.

Transformers Supports Multiple Languages

Voila is a brand-new large-scale speech-language foundation model series designed to elevate human-computer interaction to unprecedented levels.

Transformers Supports Multiple Languages

Seallms Audio 7B

SeaLLMs-Audio is a large-scale audio language model targeting Southeast Asia. It supports five major languages: Indonesian, Thai, Vietnamese, English, and Chinese, and has capabilities such as audio analysis and voice interaction.

Safetensors Supports Multiple Languages

Voila Tokenizer

Voila is a large-scale voice-language foundation model series designed to enhance human-computer interaction, supporting multiple audio tasks and languages.

Transformers Supports Multiple Languages

Ast Finetuned Speech Commands V2

An audio spectrogram transformer model fine-tuned on the Speech Commands v2 dataset for audio classification tasks, achieving 98.12% accuracy.

Audio Classification

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase